智能论文笔记

Biomedical image analysis competitions: The state of current participation practice

Matthias Eisenmann , Annika Reinke , Vivienn Weru , Minu Dietlinde Tizabi , Fabian Isensee , Tim J. Adler , Patrick Godau , Veronika Cheplygina , Michal Kozubek , Sharib Ali

分类：计算机视觉 | 机器学习

2022-12-16

The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.

translated by 谷歌翻译

Neural Point-based Shape Modeling of Humans in Challenging Clothing

Qianli Ma , Jinlong Yang , Michael J. Black , Siyu Tang

分类：计算机视觉

2022-09-14

SMPL（SMPL）的参数3D身体模型仅代表最小衣服的人，并且很难扩展到衣服，因为它们具有固定的网格拓扑和分辨率。为了解决这些局限性，最近的工作使用隐式表面或点云来建模衣服。虽然不受拓扑的限制，但这种方法仍然很难为偏离身体的偏离的衣服建模，例如裙子和连衣裙。这是因为他们依靠身体来通过将衣服表面放置为参考形状。不幸的是，当衣服远离身体时，这个过程的定义很差。此外，他们使用线性混合剥皮来摆姿势，并将皮肤重量与下面的身体部位绑在一起。相比之下，我们在没有规范化的情况下对局部坐标空间中的衣服变形进行了建模。我们还放松皮肤重量以使多个身体部位影响表面。具体而言，我们用粗糙的阶段扩展了基于点的方法，该方法用学习的姿势独立的“粗大形状”代替了规范化，该方法可以捕获裙子（如裙子）的粗糙表面几何形状。然后，我们使用一个网络来完善该网络，该网络会渗透到粗糙表示中的线性混合剥皮权重和姿势依赖的位移。该方法适合符合身体并偏离身体的服装。我们通过从示例中学习特定于人的化身，然后展示如何以新的姿势和动作来展示它们的有用性。我们还表明，该方法可以直接从原始扫描中学习缺少数据，从而大大简化了创建逼真的化身的过程。代码可用于研究目的，可在{\ small \ url {https://qianlim.github.io/skirt}}中使用。

translated by 谷歌翻译

Graph Neural Networks for Low-Energy Event Classification & Reconstruction in IceCube

R. Abbasi , M. Ackermann , J. Adams , N. Aggarwal , J. A. Aguilar , M. Ahlers , M. Ahrens , J. M. Alameddine , A. A. Alves Jr. , N. M. Amin

分类：机器学习

2022-09-07

ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列，该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战，这是由于探测器的几何形状，不均匀的散射和冰中光的吸收，并且低于100 GEV的光，每个事件产生的信号光子数量相对较少。为了应对这一挑战，可以将ICECUBE事件表示为点云图形，并将图形神经网络（GNN）作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开，对不同的中微子事件类型进行分类，并重建沉积的能量，方向和相互作用顶点。基于仿真，我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术，包括已知系统不确定性的影响。对于中微子事件分类，与当前的IceCube方法相比，GNN以固定的假阳性速率（FPR）提高了信号效率的18％。另外，GNN在固定信号效率下将FPR的降低超过8（低于半百分比）。对于能源，方向和相互作用顶点的重建，与当前最大似然技术相比，分辨率平均提高了13％-20％。当在GPU上运行时，GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件，这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。

translated by 谷歌翻译

Learning Clinical Concepts for Predicting Risk of Progression to Severe COVID-19

Helen Zhou , Cheng Cheng , Kelly J. Shields , Gursimran Kochhar , Tariq Cheema , Zachary C. Lipton , Jeremy C. Weiss

分类：机器学习 | (统计)机器学习

2022-08-28

随着COVID-19现在普遍存在，对高危个体的识别至关重要。利用来自宾夕法尼亚州西南部主要医疗保健提供者的数据，我们开发了预测严重Covid-19进展的生存模型。在这项工作中，我们在依赖许多功能的更准确模型和依赖一些与临床医生直觉相一致的功能的模型之间面临一个权衡。使事情变得复杂，许多EHR功能往往较低，从而降低了较小模型的准确性。在这项研究中，我们开发了两组高性能风险评分：（i）由所有可用功能构建的无约束模型；（ii）在训练风险预测因子之前，在培训风险预测因子之前就学习一小部分临床概念的管道。学到的概念提高了相应特征（C-Index 0.858 vs. 0.844）的性能，并在评估样本外（随后的时间段）时证明了（i）的改进。我们的模型表现优于先前的工作（C-Index 0.844-0.872 vs. 0.598-0.810）。

translated by 谷歌翻译

Adversarial Feature Augmentation for Cross-domain Few-shot Classification

Yanxu Hu , Andy J. Ma

分类：计算机视觉

2022-08-23

基于元学习的现有方法通过从（源域）基础类别的培训任务中学到的元知识来预测（目标域）测试任务的新颖类标签。但是，由于范围内可能存在较大的域差异，大多数现有作品可能无法推广到新颖的类别。为了解决这个问题，我们提出了一种新颖的对抗特征增强（AFA）方法，以弥合域间隙，以几乎没有学习。该特征增强旨在通过最大化域差异来模拟分布变化。在对抗训练期间，通过将增强特征（看不见的域）与原始域（可见域）区分开来学习域歧视器，而将域差异最小化以获得最佳特征编码器。所提出的方法是一个插件模块，可以轻松地基于元学习的方式将其集成到现有的几种学习方法中。在九个数据集上进行的广泛实验证明了我们方法对跨域几乎没有射击分类的优越性，与最新技术相比。代码可从https://github.com/youthhoo/afa_for_few_shot_learning获得

translated by 谷歌翻译

A new way of video compression via forward-referencing using deep learning

S. M. A. K. Rajin , M. Murshed , M. Paul , S. W. Teng , J. Ma

分类：计算机视觉

2022-08-13

为了利用同一场景的视频框架中的高时间相关性，使用基于块的运动估计和补偿技术从已经编码的参考帧中预测了当前帧。尽管这种方法可以有效利用移动对象的翻译运动，但它容易受到其他类型的仿射运动和对象遮挡/除含量的影响。最近，深度学习已被用来模拟人类姿势的高级结构，以从短视频中的特定动作中进行，然后通过使用生成的对抗网络（GAN）来预测姿势，从而在未来的时间内生成虚拟框架。因此，建模人姿势的高级结构能够通过预测人类的行为并确定其轨迹来利用语义相关性。视频监视应用程序将受益，因为可以通过估算人类姿势轨迹并通过语义相关性产生未来的框架来压缩存储的大监视数据。本文通过从已经编码的框架中对人姿势进行建模并在当前时间使用生成的框架来探讨一种新的视频编码方式。预计所提出的方法可以通过预测包含具有较低残差的移动对象的块来克服传统向后引用框架的局限性。实验结果表明，提出的方法平均可以实现高达2.83 dB PSNR增益和25.93 \％比特率的节省，用于高运动视频序列

translated by 谷歌翻译

EvolveHypergraph: Group-Aware Dynamic Relational Reasoning for Trajectory Prediction

Jiachen Li , Chuanbo Hua , Jinkyoo Park , Hengbo Ma , Victoria Dax , Mykel J. Kochenderfer

分类：计算机视觉 | 人工智能 | 机器学习 | 机器人

2022-08-10

虽然对配对关系的建模在多代理交互系统中得到了广泛的研究，但其捕获更高级别和较大规模的小组活动的能力受到限制。在本文中，我们提出了一种群体感知的关系推理方法（命名为EvolveHyhyPergraph），并明确推断了基本的动态发展的关系结构，并且我们证明了其对多机构轨迹预测的有效性。除了一对节点之间的边缘（即代理）之间的边缘外，我们还建议推断出适应性地连接多个节点的超核，以在不固定Hyperedges的数量的情况下以无聊的方式启用群体感知的关系推理。所提出的方法随着时间的推移而动态发展的关系图和超图表，以捕获关系的演变，而轨迹预测指标将其用于获得未来的状态。此外，我们建议将关系演化的平稳性和推断图或超图的稀疏性正规化，从而有效地提高了训练稳定性并增强了推断关系的解释性。在综合人群模拟和多个现实世界基准数据集上都验证了所提出的方法。我们的方法不理会在长期预测中解释，合理的团体感知关系并取得最先进的表现。

translated by 谷歌翻译

Instant Neural Representation for Interactive Volume Rendering

Qi Wu , Michael J. Doyle , David Bauer , Kwan-Liu Ma

分类：机器学习

2022-07-23

神经网络在压缩体积数据以进行科学可视化方面表现出巨大的潜力。但是，由于训练和推断的高成本，此类体积神经表示仅应用于离线数据处理和非交互式渲染。在本文中，我们证明，通过同时利用现代的GPU张量核心，本地CUDA神经网络框架以及在线培训，我们可以使用体积神经表示来实现高性能和高效率交互式射线追踪。此外，我们的方法是完全概括的，可以适应时变的数据集。我们提出了三种用于在线培训的策略，每种策略都利用GPU，CPU和核心流程技术的不同组合。我们还开发了三个渲染实现，允许交互式射线跟踪与实时卷解码，示例流和幕后神经网络推断相结合。我们证明，我们的体积神经表示可以扩展到Terascale，以进行常规网格体积可视化，并可以轻松地支持不规则的数据结构，例如OpenVDB，非结构化，AMR和粒子体积数据。

translated by 谷歌翻译

Integrated multimodal artificial intelligence framework for healthcare applications

Luis R. Soenksen , Yu Ma , Cynthia Zeng , Leonard D. J. Boussioux , Kimberly Villalobos Carballo , Liangyuan Na , Holly M. Wiberg , Michael L. Li , Ignacio Fuentes , Dimitris Bertsimas

分类：机器学习 | 人工智能

2022-02-25

人工智能（AI）系统在接下来的几十年中有很大的希望可以改善医疗保健。具体而言，利用多个数据源和输入模式的AI系统有望成为一种可行的方法，可以在广泛的应用程序中提供更准确的结果和可部署的管道。在这项工作中，我们提出并评估一个统一的医学中的整体AI（HAIM）框架，以促进利用多模式输入的AI系统的生成和测试。我们的方法使用可通用的数据预处理和机器学习建模阶段，可以很容易地适应医疗保健环境中的研究和部署。我们通过训练和表征基于MIMIC-IV-MM的14,324个独立模型来评估我们的HAIM框架，该模型是一种多模式临床数据库（n = 34,537个样本），其中包含7,279个独特的住院和6,485名患者，涵盖了4个数据模态的所有可能输入组合（即，所有可能的输入组合）表格，时间序列，文本和图像），11个独特的数据源和12个预测任务。我们表明，该框架可以始终如一地生产出在各种医疗保健示范中超过相似的单源方法的模型（乘以6-33％），包括10种不同的胸部病理学诊断，以及休息时间和48小时的死亡率预测。我们还使用Shapley值量化了每种模式和数据源的贡献，这证明了数据类型重要性的异质性以及在不同医疗保健相关的任务中多模式输入的必要性。我们的整体医学AI（HAIM）框架的可推广性能和灵活性可以为未来的临床和运营医疗环境中的多模式预测系统提供有希望的途径。

translated by 谷歌翻译

CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command Recognition

Wenliang Dai , Samuel Cahyawijaya , Tiezheng Yu , Elham J. Barezi , Peng Xu , Cheuk Tung Shadow Yiu , Rita Frieske , Holy Lovenia , Genta Indra Winata , Qifeng Chen

分类：自然语言处理 | 人工智能

2022-01-11

随着深度学习和智能车辆的兴起，智能助手已成为促进驾驶和提供额外功能的基本内部组件。汽车智能助理应该能够处理一般的和与汽车有关的命令，并执行相应的操作，减轻驾驶和提高安全性。但是，对于低资源语言存在数据稀缺问题，妨碍了研究和应用的发展。在本文中，我们介绍了一个新的DataSet，粤式视听语音识别（CI-AVSR），用于粤语中的车载命令识别，具有视频和音频数据。它由令人宣传的30个粤语发言者记录的200个车载命令的4,984个样本（8.3小时）组成。此外，我们使用常见的内部内部背景噪声增强我们的数据集来模拟真实环境，产生比收集的数据集大10倍。我们提供我们数据集的清洁和增强版本的详细统计信息。此外，我们实施了两个多模式基线以证明CI-AVSR的有效性。实验结果表明，利用视觉信号提高了模型的整体性能。虽然我们的最佳模型可以在清洁测试集上实现相当大的质量，但嘈杂数据的语音识别质量仍然是较差的，并且仍然是真正的车载语音识别系统的极其具有挑战性的任务。数据集和代码将在https://github.com/hltchkust/ci-avsr发布。

translated by 谷歌翻译